Designing data intensive application

نام کتاب: Designing data intensive application

سال چاپ:۱۳۹۷

سال خوندن من: در حال خوندن

فصل ۱: Reliable، Scalable و Maintainable Applications

این فصل اول کتاب Designing Data-Intensive Applications نوشته‌ی Martin Kleppmann هست و پایه‌ای‌ترین مفاهیم مربوط به سیستم‌های داده‌ای رو توضیح می‌ده. این فصل در واقع هم اصطلاحات رو روشن می‌کنه و هم مسیر بقیه‌ی کتاب رو مشخص می‌کنه، با این تمرکز که Reliability، Scalability و Maintainability دقیقاً یعنی چی و چطور می‌شه بهشون رسید.

امروزه خیلی از اپلیکیشن‌ها data-intensive هستن. یعنی محدودیت اصلیشون CPU نیست؛ مشکل معمولاً از حجم زیاد دیتا، پیچیدگی اون یا سرعت تغییراتش میاد. برای اینکه بتونیم اپلیکیشن‌های data-intensive موفق بسازیم، کتاب روی سه موضوع کلیدی تمرکز می‌کنه:

Reliability

سیستمی که reliable باشه حتی وقتی مشکل پیش میاد هم درست کار می‌کنه، وظیفه‌هاش رو انجام می‌ده و سطح performance قابل‌قبولش رو حفظ می‌کنه. این یعنی بتونه خطاهای مختلف رو تحمل کنه، مثل:

Hardware faults: مثل سوختن هارد، خرابی RAM، قطع برق یا حتی کابل برق که یکی اشتباهی می‌کشه بیرون! اینا تو دیتاسنترهای بزرگ خیلی رایجه.
Software errors (bugs): معمولاً سیستمی هستن و نسبت به خطاهای سخت‌افزاری دردسر بیشتری دارن.
Human errors: خطاهای انسانی همیشه بخشی از کار هستن. سیستم‌های robust طوری طراحی می‌شن که احتمال خطای انسانی کم بشه و اگر هم اتفاق افتاد سریع بشه ریکاوری کرد.

برای افزایش Reliability معمولاً از تکنیک‌هایی مثل fault-tolerance، مانیتورینگ دقیق (telemetry) و همین‌طور مدیریت درست و آموزش تیم‌ها استفاده می‌شه.

Scalability

سیستمی که scalable باشه، وقتی دیتا یا ترافیک یا پیچیدگی بیشتر می‌شه، هنوز می‌تونه درست مدیریت کنه. برای اینکه در مورد scalability درست صحبت کنیم، باید load سیستم رو کمی‌سازی کنیم، مثلاً با پارامترهایی مثل تعداد request بر ثانیه، نسبت read به write یا تعداد کاربرهای active.

مثال: تحویل home timeline در Twitter.

یه روش اینه که هر بار کاربر timeline رو باز می‌کنه، توییت‌های فالووینگ‌هاش fetch بشن. این برای کسایی که خیلی فالووینگ دارن می‌تونه سنگین بشه (read load بالا).
روش دیگه اینه که وقتی کاربر توییت می‌کنه، اون توییت رو pre-compute کنیم و برای همه‌ی فالوورهاش push کنیم (fan-out) تا خوندن سریع بشه. این بار روی write می‌ذاره، مخصوصاً برای کاربرهای معروف.
Twitter در عمل یه hybrid strategy استفاده می‌کنه: برای بیشتر کاربرا fan-out و برای celebrityها fetch موقع read.

برای سنجش performance هم بهتره از percentileهای زمان پاسخ (مثلاً p95 یا p99) استفاده کنیم، نه فقط average. چون "tail latency" همون تجربه‌ایه که خیلی از کاربرا حس می‌کنن و می‌تونه رضایتشون رو به شدت تحت‌تأثیر بذاره.

Maintainability

این موضوع مربوط به اینه که آدمای مختلف (از تیم engineering گرفته تا ops) بتونن در طول زمان به راحتی روی سیستم کار کنن، فیچرهای موجود رو نگه دارن و سیستم رو برای نیازهای جدید تغییر بدن. سه بخش مهم Maintainability:

Operability: راحت بودن مدیریت سیستم برای تیم ops. یعنی مانیتورینگ خوب، مستندات شفاف، آپگرید راحت و پشتیبانی درست.
Simplicity: کنترل complexity. پیچیدگی می‌تونه از state زیاد، coupling شدید یا dependencyهای درهم‌تنیده بیاد. کم کردن complexity خیلی مهمه برای کاهش ریسک باگ و آسون‌تر کردن نگهداری. اینجا داشتن abstractionهای درست کمک می‌کنه سیستم رو به تیکه‌های کوچیک و reusable تقسیم کنیم.
Evolvability: قابلیت تغییر راحت سیستم و تطبیق با نیازهای جدید. این بخش خیلی به simplicity و abstractionهای درست وابسته‌ست.

Fault vs Failure

به طور کلی یه Fault یعنی یکی از کامپوننت‌های سیستم از چیزی که توی specification براش تعریف شده منحرف بشه. ولی این با Failure فرق داره: Failure وقتی اتفاق می‌افته که کل سیستم دیگه نتونه سرویس موردنیاز رو به کاربر بده.

Reliability توی سیستم‌های نرم‌افزاری یعنی حتی وقتی این «چیزهایی که می‌تونن خراب بشن» (Faultها) پیش میان، سیستم همچنان درست کار کنه. چون حذف کامل Faultها عملاً غیرممکنه، سیستم‌ها طوری طراحی می‌شن که fault-tolerance mechanisms داشته باشن تا نذارن Faultها به Failure تبدیل بشن.

یه راه تست این مکانیزم‌ها اینه که عمداً Fault تزریق کنیم. مثلاً ابزار معروف Netflix به اسم Chaos Monkey همین کارو می‌کنه: میاد بخشی از سیستم رو می‌ترکونه تا مطمئن بشیم سیستم می‌تونه زنده بمونه.

دسته‌های مختلف Fault

۱. Hardware Faults

این‌ها مشکلات فیزیکی هستن، مثل:

سوختن هارد
خرابی RAM
قطع برق دیتاسنتر
یا حتی یه نفر کابل شبکه رو بکشه بیرون

تو دیتاسنترهای بزرگ این اتفاقات زیاده، ولی معمولاً random و independent در نظر گرفته می‌شن.

۲. Software Errors

این‌ها خطاهای سیستمی هستن که خیلی سخت‌تر می‌شه پیش‌بینیشون کرد. ممکنه روی چندین node با هم اتفاق بیفته و باعث system failure گسترده‌تر بشه.
مثال‌ها:

یه bug که اگه ورودی خاصی بهش بدی کل application server رو crash کنه
پروسه‌هایی که runaway می‌شن و همه‌ی resource مشترک رو می‌بلعن.
سرویس‌های وابسته‌ای که کند یا بی‌پاسخ می‌شن.
اcascading failures (یعنی یه مشکل کوچیک باعث دومینویی از خطاها بشه).

۳. Human Errors

مثلا Configuration errorها یکی از اصلی‌ترین دلایل outage تو سرویس‌های بزرگ اینترنتی هستن، حتی بیشتر از hardware faults.

Faultها توی Distributed Systems

وقتی سیستم روی چندین ماشین توی شبکه اجرا می‌شه، داستان فرق می‌کنه. اینجا partial failures خیلی رایجن: بعضی بخش‌ها خراب می‌شن، بقیه درست کار می‌کنن. این موضوع خودش Faultهای جدیدی می‌سازه:

۱. Network Faults

شبکه بین ماشین‌ها همیشه قابل اعتماد نیست. ممکنه:

پیام (packet) گم بشه،
تأخیر داشته باشه،
دوباره ارسال بشه،
یا حتی ترتیبش بهم بخوره.

و هیچ تضمینی هم برای زمان و تحویلش نیست. فرستنده هم بدون جواب، نمی‌تونه مطمئن بشه که پیام رسیده. برای همین معمولاً از timeout استفاده می‌کنیم (که کامل هم درست کار نمی‌کنه). Congestion و صف‌زدن (queueing delay) هم دلایل اصلی نوسان performance شبکه‌ان.

۲. Unreliable Clocks

هر ماشین ساعت خودش رو داره که ممکنه drift کنه (یعنی سریع‌تر یا کندتر بشه). حتی با پروتکل‌هایی مثل NTP هم ممکنه ساعت‌ها sync نباشن. گاهی ساعت می‌تونه یه‌دفعه به عقب یا جلو بپره.
اگه برای ordering رویدادها روی چند node به این ساعت‌ها تکیه کنیم، ممکنه باعث data loss یا رفتار اشتباه بشه. مثلاً استراتژی last write wins توی conflict resolution ممکنه به خاطر همین مشکل fail کنه.

۳. Process Pauses

یه پروسه ممکنه یه‌دفعه برای مدت طولانی pause بشه، مثلاً به خاطر:

اstop-the-world توی garbage collection،
اsynchronous disk I/O،
یا page fault.

وقتی این pause اتفاق می‌افته، بقیه‌ی nodeها فکر می‌کنن این node مرده و declareش می‌کنن dead. حالا اگه دوباره بیدار بشه و بخواد با اطلاعات قدیمی کار کنه، مشکل درست می‌شه.

۴. Byzantine Faults

اینجا ماجرا خیلی بدتره: node ممکنه رفتار arbitrary یا حتی malicious داشته باشه. یعنی عمداً پیام‌های متناقض یا خراب بفرسته تا بقیه‌ی nodeها رو گمراه کنه.
البته پروتکل‌های Byzantine fault-tolerant وجود دارن، ولی بیشتر سیستم‌های داده‌ای server-side فرض می‌کنن nodeها ممکنه unreliable باشن، ولی dishonest نیستن (یعنی عمداً دروغ نمی‌گن).

توصیف Load

اLoad یعنی تقاضا یا فشار کاری که روی سیستم میاد. Scalability هم یعنی توانایی سیستم برای هندل کردن همین افزایش Load.

برای اینکه بتونیم از رشد حرف بزنیم، اول باید Load فعلی سیستم رو با چند تا عدد خلاصه کنیم؛ به اینا می‌گن load parameters. اینکه دقیقاً چه پارامترهایی رو انتخاب کنیم، بستگی به معماری سیستم داره.

مثال‌هایی از load parameters:

تعداد requests per second توی یه web server
نسبت read به write توی یه database
تعداد کاربران فعال همزمان توی یه chat room
اhit rate یه cache

مثال توییتر خیلی خوب اینو نشون می‌ده. توی نوامبر ۲۰۱۲:

به طور میانگین ۴.۶k و در اوج ۱۲k request/second برای tweet کردن داشتن.
ولی برای timeline دیدن ۳۰۰k request/second بود.

حالا شاید هندل کردن ۱۲k write/second ساده به نظر بیاد، اما مشکل اصلی توییتر fan-out بود. یعنی هر کاربر هم فالوئر زیاد داره، هم فالوئینگ زیاد. یه توییت از یه سلبریتی می‌تونه به ۳۰ میلیون home timeline نوشته بشه! پس توی این سناریو، توزیع فالوئرهای هر کاربر خودش یه load parameter کلیدی حساب می‌شه.

توصیف Performance

وقتی Load رو شناختیم، بعدش باید بررسی کنیم که Performance سیستم با افزایش Load چه تغییری می‌کنه. معمولاً دو جور نگاه داریم:

اگه یه load parameter زیاد بشه و منابع (CPU، Memory، Network Bandwidth) ثابت بمونن، Performance چه اتفاقی براش میفته؟
اگه بخوایم Performance ثابت بمونه، باید چه‌قدر منابع رو افزایش بدیم وقتی load parameter بالا می‌ره؟

متریک‌های Performance به نوع سیستم بستگی دارن:

توی batch processing systems مثل Hadoop، معمولاً Throughput مهم‌ترین معیار محسوب می‌شه (یعنی چند رکورد در ثانیه پردازش می‌شن یا کل job روی یه dataset چه مدت طول می‌کشه).
توی online systems، بیشتر Response Time مهمه (یعنی فاصله بین فرستادن request از سمت client تا گرفتن response).

Response Time و Latency

خیلی وقتا "Latency" و "Response Time" رو یکی می‌دونن، ولی دقیقا یکی نیستن:

اResponse Time همون چیزیه که کاربر می‌بینه: شامل زمان پردازش request (service time) + network delay + queueing delay.
اLatency فقط اون بخشی از زمانه که request منتظر می‌مونه تا سرویس داده بشه.

اResponse time یه عدد ثابت نیست، بلکه یه distribution داره. حتی دو تا request یکسان هم می‌تونن response time متفاوتی داشته باشن (به خاطر context switch، packet retransmission، GC pause، یا disk I/O).

برای اینکه Performance رو درست بفهمیم، استفاده از Percentiles خیلی بهتر از Mean (Average) ـه، چون میانگین نشون نمی‌ده چند درصد کاربرا واقعاً یه delay خاص رو تجربه کردن.

اMedian (50th percentile): نصف requestها سریع‌تر از این هستن، نصف دیگه کندتر. این شاخص خوبیه برای "تجربه‌ی معمولی کاربر".
اHigh percentiles یا همون Tail Latencies (مثل 95th، 99th یا 99.9th): خیلی مهمن، چون تجربه‌ی کندترین کاربرا رو نشون می‌دن. مثلاً Amazon فهمید فقط ۱۰۰ms افزایش response time می‌تونه فروش رو ۱٪ کم کنه!

اTail latency معمولا پایه‌ی SLO و SLA ـهاست که سطح انتظار کارایی و در دسترس بودن سرویس رو تعریف می‌کنن.

نقش Queueing

اQueueing delay یکی از دلایل اصلی tail latency بالاست. حتی تعداد کمی request کند می‌تونه کل صف رو عقب بندازه و باعث head-of-line blocking بشه. به همین دلیل، خیلی مهمه که response time رو از سمت client بسنجیم.

وقتی یه request end-user شامل چندین backend call باشه، tail latency amplification اتفاق می‌افته: یعنی حتی اگه فقط درصد کمی از backend callها کند باشن، تعداد خیلی بیشتری از درخواست‌های کاربر نهایی کند می‌شن.

برای مانیتورینگ درست Percentiles هم الگوریتم‌های خاصی لازمه (مثل forward decay، t-digest یا HdrHistogram)، چون اینکه بخوای کل داده‌ها رو مرتب کنی خیلی inefficient می‌شه.

وقتی یه سیستم با افزایش load (تقاضا) روبه‌رو میشه، لازمه یه سری استراتژی داشته باشیم که performance (عملکرد) خوب باقی بمونه. هیچ راه‌حل جادویی یا یکسانی برای همه‌چی وجود نداره. معماری درست، خیلی وابسته‌ست به نیاز اپلیکیشن و نوع load‌ای که می‌گیره.

راه‌های اصلی برای مقابله با load:

اScaling Up (Vertical Scaling)
این یعنی انتقال به یه ماشین قوی‌تر. مثلاً یه سرور قدرتمند با کلی CPU، رم زیاد و دیسک‌های متعدد. اینا مثل یه ماشین واحد کار می‌کنن و یه interconnect سریع دارن که هر CPU می‌تونه به هر بخش از حافظه یا دیسک دسترسی داشته باشه.
مدیریت این مدل راحت‌تره، ولی هزینه‌ش به‌صورت خطی بالا نمیره؛ یعنی اگه ماشین دو برابر بزرگ‌تر بگیری، لزوماً دو برابر load رو نمی‌کشه. همینطور محدودیت‌هایی مثل bottleneck و تک‌مکان جغرافیایی هم داره. البته بعضی high-end server ها قطعات hot-swappable دارن برای fault tolerance، ولی باز محدودیت دارن.
اScaling Out (Horizontal Scaling)
این یعنی پخش کردن load روی چندتا ماشین کوچیک‌تر، که بهش میگن shared-nothing architecture. تو این مدل، هر node (با CPU، رم و دیسک خودش) از طریق یه شبکه عادی به بقیه وصله.
مزیتش اینه که دیتای بزرگ می‌تونه روی چندتا دیسک پخش بشه و query ها هم بین چندتا CPU تقسیم بشن. اگه query فقط روی یه partition اجرا بشه، اون node می‌تونه مستقل کار کنه، و با اضافه کردن node جدید، throughput بالا میره.
مشکلش اینه که distributed shared-nothing معماری پیچیدگی بیشتری میاره و بعضی وقتا data model ها رو محدود می‌کنه.

🔹 اPartitioning (Sharding)
یکی از کلیدی‌ترین روش‌ها برای scaling out همینه. دیتابیس بزرگ رو می‌شکونیم به چندتا partition کوچیک‌تر و می‌دیم به nodeهای مختلف. اینطوری هم دیتا پخش میشه هم query load. هدف اینه که از hot spot جلوگیری بشه (یعنی جایی که یه partition بیش از حد پرکار میشه).

روش‌های partitioning:
- اKey Range Partitioning: کلیدها رو sort می‌کنیم و هر partition یه بازه از کلیدها رو می‌گیره. برای range query خیلی خوبه، ولی خطر hot spot داره.
- اPartitioning by Hash of Key: کلیدها رو hash می‌کنیم تا یکنواخت‌تر پخش بشن. اینطوری احتمال hot spot کمتره. Consistent hashing هم توی سیستم‌های caching اینترنتی معروفه.
- Partitioning with Secondary Indexes: این یکی سخت‌تره چون secondary index مستقیم روی یه partition نمی‌شینه. دو تا روش معروف داره:
  
  -ا Document-based (ایندکس کنار document ذخیره میشه → query باید scatter/gather کنه)
  - اTerm-based (ایندکس global میشه → read سریع‌تر، ولی write پیچیده‌تر میشه)
🔹 اReplication
معمولاً همراه partitioning استفاده میشه. یعنی چندتا کپی از یه دیتا روی nodeهای مختلف. اینطوری هم fault tolerance داریم هم performance بهتر.

روش‌های replication:
- اSingle-Leader Replication: همه writeها میرن یه leader، بعد به followerها replicate میشه. ساده‌تره ولی failover لازمه.
- اMulti-Leader Replication: چندتا node می‌تونن write بگیرن و async به هم replicate می‌کنن. برای multi-datacenter خوبه ولی conflict resolution سخت میشه.
- اLeaderless Replication: هر replica می‌تونه write رو مستقیم بگیره. معمولا با quorum (تعداد مشخصی node باید تأیید بدن) consistency رو حفظ می‌کنن. robust هست، ولی معمولاً linearizability نداره.
اElastic Systems vs. Manually Scaled Systems
- اElastic Systems: خودشون وقتی load میره بالا، منابع اضافه می‌کنن. برای workloadهای غیرقابل‌پیش‌بینی خیلی خوبن.
- اManually Scaled Systems: باید آدم‌ها دستی تحلیل کنن و تصمیم بگیرن کی ماشین اضافه بشه. ساده‌تره و سورپرایز کمتری داره.
No One-Size-Fits-All Architecture
بهترین معماری بستگی داره به خصوصیات اپلیکیشن: تعداد readها و writeها، حجم دیتا، پیچیدگی دیتا، نیاز به response time و الگوهای دسترسی.
مثلاً سیستمی که ۱۰۰هزار درخواست کوچیک در ثانیه رو هندل می‌کنه، زمین تا آسمون فرق داره با سیستمی که فقط ۳ درخواست سنگین در دقیقه می‌گیره، حتی اگه throughput کلی مشابه باشه. برای startupها هم معمولاً مهم‌تره که سریع فیچر بسازن تا اینکه خودشونو درگیر scaling زودهنگام کنن.
General-Purpose Building Blocks
با اینکه معماری‌ها اختصاصی هستن، ولی معمولاً از یه سری building block عمومی ساخته میشن. شناخت این پایه‌ها خیلی مهمه برای طراحی سیستم scalable.

فصل ۱: Reliable، Scalable و Maintainable Applications​

Reliability​

Scalability​

Maintainability​

Fault vs Failure​

دسته‌های مختلف Fault​

۱. Hardware Faults​

۲. Software Errors​

۳. Human Errors​

Faultها توی Distributed Systems​

۱. Network Faults​

۲. Unreliable Clocks​

۳. Process Pauses​

۴. Byzantine Faults​

توصیف Load​

توصیف Performance​

Response Time و Latency​

نقش Queueing​

راه‌های اصلی برای مقابله با load:​